Estimación de ventaja basada en representaciones: más que recompensa escalar
GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.
GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.
Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.
StainFlow mejora el RL en agentes GUI con un modelo que rastrea manchas de entidades y vincula evidencia, aumentando un 3.2% el éxito en entornos dinámicos.
Descubre cómo Sci-PRM, un modelo de recompensa consciente de herramientas, mejora la verificación científica en biología, química y física.
Alinea modelos de lenguaje con preferencias implícitas usando razonamiento defensivo y aprendizaje por refuerzo. CDRA mejora personalización y seguridad.
Descubre cómo los modelos MoE dispersos aprenden expertos especializados e interpretables para modelar preferencias humanas personalizadas sin coste adicional d
Descubre cómo fusionar noticias largas con predicciones de series temporales usando modelos de recompensa para mayor precisión.
Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!
Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.
Descubre cómo Latent Reward Steering optimiza el razonamiento de LLMs al promover comportamientos cognitivos implícitos.
Descubre cómo CARE-RL mitiga conflictos entre dominios en LLMs con aprendizaje por refuerzo consciente de capacidades, con resultados superiores en benchmarks.